Inciso 3

Column

EstadĆ­sticas descriptivas

Data summary
Name select(ecommerce, -c(Emai…
Number of rows 500
Number of columns 5
_______________________
Column type frequency:
numeric 5
________________________
Group variables None

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
AvgSessionLength 0 1 33.05 0.99 29.53 32.34 33.08 33.71 36.14 ā–ā–ƒā–‡ā–†ā–
TimeonApp 0 1 12.05 0.99 8.51 11.39 11.98 12.75 15.13 ā–ā–ƒā–‡ā–…ā–
TimeonWebsite 0 1 37.06 1.01 33.91 36.35 37.07 37.72 40.01 ā–ā–ƒā–‡ā–…ā–
LengthofMembership 0 1 3.53 1.00 0.27 2.93 3.53 4.13 6.92 ā–ā–ƒā–‡ā–ƒā–
YearlyAmountSpent 0 1 499.31 79.31 256.67 445.04 498.89 549.31 765.52 ā–ā–…ā–‡ā–ƒā–
  AvgSessionLength          TimeonApp      TimeonWebsite LengthofMembership 
          1.370163           1.365696           1.367175           1.196052 
 YearlyAmountSpent 
        104.275551 
  AvgSessionLength          TimeonApp      TimeonWebsite LengthofMembership 
          6.607234           6.618842           6.091334           6.652788 
 YearlyAmountSpent 
        508.847880 

Column

Interpretación estadísticas descriptivas

AvgSessionLength (Duración promedio de la sesión) La duración de las sesiones de los usuarios tiene una media y mediana de 33.1 minutos, con una desviación estÔndar de 0.99, lo que indica que las sesiones son relativamente homogéneas. El valor mínimo registrado es de 29.5 minutos y el mÔximo de 36.1 minutos, con un rango total de 6.61 minutos y un rango intercuartílico (IQR) de 1.37 minutos, lo que muestra baja dispersión en los datos. La asimetría de -0.0321 sugiere que la distribución es prÔcticamente simétrica, sin una inclinación significativa hacia valores altos o bajos. La curtosis de 3.00 indica que la forma de la distribución es muy similar a una normal, con una dispersión de datos dentro de los rangos esperados.

Time on App (Tiempo en la aplicación) El tiempo que los usuarios pasan en la aplicación tiene una media de 12.1 minutos y una mediana de 12.0 minutos, con una desviación estÔndar de 0.99, lo que indica que la variabilidad en el tiempo de uso es baja. El valor mínimo registrado es de 8.51 minutos y el mÔximo de 15.1 minutos, con un rango total de 6.62 minutos y un rango intercuartílico (IQR) de 1.37 minutos, mostrando que la mayoría de los usuarios tienen tiempos de uso muy similares. La asimetría de -0.0889 sugiere una ligera inclinación hacia valores mÔs bajos, aunque no de manera significativa. La curtosis de 3.11 indica que la distribución es ligeramente mÔs concentrada en la media en comparación con una distribución normal, lo que implica que los tiempos de uso estÔn menos dispersos.

Time on Website (Tiempo en el sitio web) El tiempo de navegación en el sitio web tiene una media y mediana de 37.1 minutos, con una desviación estÔndar de 1.01, lo que sugiere que los usuarios pasan un tiempo relativamente estable en la plataforma. El tiempo mínimo registrado es de 33.9 minutos y el mÔximo de 40.0 minutos, con un rango total de 6.09 minutos y un rango intercuartílico (IQR) de 1.37 minutos, lo que indica que el 50% de los usuarios pasan entre 36.3 y 37.7 minutos en la web. La asimetría de 0.0121 muestra que la distribución es prÔcticamente simétrica, sin sesgos hacia valores altos o bajos. La curtosis de 2.89 indica que la distribución es ligeramente mÔs plana que una normal, sugiriendo una menor concentración de valores en la media y una dispersión algo mayor.

Length of Membership (Duración de la membresía) El tiempo que los clientes han sido miembros de la plataforma tiene una media de 3.53 años y una mediana de 3.53 años, con una desviación estÔndar de 0.99, lo que indica que la mayoría de los clientes tienen tiempos de membresía similares. El valor mínimo registrado es de 0.27 años y el mÔximo de 6.92 años, con un rango total de 6.65 años y un rango intercuartílico (IQR) de 1.20 años, lo que significa que el 50% de los clientes tienen entre 2.93 y 4.13 años de membresía. La asimetría de -0.106 sugiere una leve inclinación hacia clientes con mÔs años en la plataforma, mientras que la curtosis de 3.33 indica una ligera mayor concentración en la media, con pocos valores extremos.

Yearly Amount Spent (Cantidad anual gastada) El gasto anual de los clientes presenta una media de 499.3 dólares y una mediana de 499.0 dólares, con una desviación estÔndar de 79.3, lo que indica una mayor variabilidad en comparación con las otras variables. El gasto mínimo registrado es de 257.0 dólares y el mÔximo de 766.0 dólares, con un rango total de 508.8 dólares y un rango intercuartílico (IQR) de 104.3 dólares, mostrando que el 50% de los clientes gastan entre 445.0 y 549.0 dólares al año. La asimetría de 0.0347 indica que la distribución es casi perfectamente simétrica, mientras que la curtosis de 3.45 sugiere la presencia de algunos valores extremos, lo que podría representar clientes con patrones de gasto significativamente mÔs altos que el promedio.

Inciso 4

Column

GrƔficos univariados

GrĆ”ficos bivariados con ā€œYearly Amount Spentā€

Column

Interpretación grÔficos univariados

AvgSessionLength (Minutos promedio de la sesión de asesoría): El atributo tiene una distribución aparentemente simétrica con un ligero peak central, lo que indicaría que posiblemente tenga una distribución cercana a la norma. En cuanto a los valores estÔn aproximadamente entre 30 y 36 minutos, lo que demuestra que existe poca variabilidad de los datos, la mayoría de los clientes tienen sesiones de entre 33 y 34 minutos de asesoría, lo que muestra que este proceso al parecer estÔ estandarizado.

TimeOnApp (Minutos totales en la app): En este caso se ve una distribución simétrica, posiblemente con una distribución normal, con valores entre 8 y 15 minutos aproximadamente. Se observa que los usuarios de la app pasan en promedio entre 11 y 13 minutos en la aplicación. El rango de los datos en este caso es pequeño, lo que indica que el tiempo en la app es consistente entre los clientes, sin mayor variación.

TimeOnWebsite (Minutos totales en el sitio web): La distribución al igaul que los atributos anteriores es simétrica, posiblemente normal, con un ligero sesgo positivo (cola derecha mÔs larga). Los minutos totales en el sitio web van entre los 34 y 40 minutos, destacando que la mayoría de los usuariospasan entre 36 y 38 minutos en la web. Se aprecia una mayor dispersión en comparación con el tiempo en la app, lo que podría indicar que algunos usuarios exploran mÔs el sitio web que otros, podria deberse a que la app es complementaria y funciona mÔs como consulta, mientras que la web estÔ enfocada en un uso mÔs intensivo con posiblemnete mÔs opciones, pero es solo una suposición.

LengthOfMembership (Años de membresía en la tienda): Se puede apreciar una distribución simétrica con una ligera concentración central, en la que el rango de años de membresía en la tienda es de 0 a 6 años con una mayoría clara de clientes con una antiguedad de 3 a 4 años como miembros. Esto podria sugerir una alta retensión después de los primeros años de membresía.

YearlyAmountSpent (Monto anual de compras en dólares): En cuanto a la distribución es simétrica, posiblemente normal, con un rango de valores entre 300 y 800 dólares. La mayoría de los clientes gastan entre 400 y 600 dólares al año en compras, no se ve una diferenciación entre la app y la web pero habría sido interesante analizarlo. Se aprecia una variabilidad moderada, lo que sugiere diferencias en los hÔbitos de consumo entre clientes.

Interpretación grÔficos bivariados

AvgSessionLength vs Yearly Amount Spent (GrÔfico Azul): Existe una leve correlación positiva, aunque no muy fuerte, entre la longitud promedio de la sesión y el monto anual de compras. Se parecia dispersión en los datos, lo que sugiere que otros factores ademÔs de la duración promedio de la sesión pueden estar influyendo en los gastos anuales. Es grafico sugiere que los clientes que pasan mÔs tiempo promedio en sesiones no necesariamente gastan significativamente mÔs al año.

TimeOnApp vs Yearly Amount Spent (GrÔfico Rojo): Existe una correlación moderadamente fuerte y positiva entre el tiempo total en la app y el monto anual de compras. Se aprecia un patrón ascendente mÔs claro en comparación con las otras variables, esto sugiere que a medida que los clientes pasan mÔs tiempo en la app, tienden a gastar mÔs al año, el tiempo en la app parece ser un factor importante que afecta el gasto anual, esto podría ser una oportunidad para optimizar la experiencia en la app y fomentar mÔs interacción para incrementar las compras.

TimeOnWebsite vs Yearly Amount Spent (GrÔfico Verde): No se observa una correlación clara entre el tiempo total en el sitio web y el monto anual de compras. Los puntos estÔn dispersos y no muestran un patrón evidente, po lo que sugiere que el tiempo en el sitio web no influye significativamente en el gasto anual de los clientes. Una posible mejora de la efectividad del sitio web (como su diseño o facilidad para realizar compras) podría ser una oportunidad, ya que el tiempo en el sitio web no parece ser un factor determinante para las compras.

LengthOfMembership vs Yearly Amount Spent (GrÔfico Morado): Existe una relación positiva clara entre los años de membresía y el monto anual de compras, los clientes con mÔs años de membresía tienden a gastar mÔs, como lo muestra la tendencia ascendente de los datos, la relación es fuerte y consistente, lo que indica lealtad de los clientes a largo plazo, por lo tanto, los clientes mÔs antiguos son los que mÔs gastan. Esto resalta la importancia de estrategias de retención, como recompensas para miembros antiguos o incentivos para que los nuevos clientes permanezcan mÔs tiempo.

Inciso 5

Column

GrĆ”fico de ā€œAvgSessionGroupā€

Descripción de ā€œAvgSessionGroupā€

Column

Interpretación estadĆ­sticas descriptivas y grĆ”fico de ā€œAvgSessionGroupā€

Grafico de frecuencia: El eje x representa los 4 grupos creados a partir de la variable AvgSessionLength, los rangos son: [29-32) = primer rango [32-33) = segundo rango [33-34) = tercer rango [34-36.2] = cuarto rango El eje y muestra la cantidad de observaciones en cada grupo.

Observaciones El rango [33-34) tiene la mayor cantidad de observaciones (179), seguido por el rango [32-33) (167), el rango [34-36.2] tiene menos observaciones (85), mientras que el ultimo [29-32) tiene la menor cantidad (69).

Se observa que el gasto promedio anual aumenta a medida que se incrementa el rango del grupo, el primer rango tiene la media mÔs baja: 452.74 dólares y el ultimo rango tiene la media mÔs alta de 545.39 dólares. Esto sugiere que los clientes con sesiones promedio mÔs largas tienden a gastar mÔs anualmente. El comportamiento de la mediana es consistente con la media, la cercanía entre ellas en cada grupo indica distribuciones simétricas dentro de cada categoría.

En cuanto a la dispersión de los datos es relativamente similar entre los grupos, con valores entre 71.10 y 82.07 dólares, lo que sugiere que la variabilidad del gasto dentro de cada grupo es moderada.

El segundo y tercer rango concentran la mayoría de los clientes, lo que implica que la duración promedio de las sesiones de la mayoría de los clientes estÔ entre 32 y 34 minutos. Mientras que los rangos extremos tienen menos clientes, lo que podría ser una oportunidad para analizar si hay factores que impactan la duración promedio de las sesiones.

Las sesiones mƔs largas podrƭan indicar clientes mƔs comprometidos o interesados en los servicios, lo que se traduce en mayores compras, tambiƩn podrƭan reflejar interacciones mƔs significativas, fomentando mayores gastos.

En base a todo lo anterior se podrían diseñar estrategias para aumentar la duración promedio de las sesiones, como promociones, incentivos o mejores herramientas de asesoramiento, Identificar qué factores influyen en las sesiones mÔs largas (por ejemplo, características del cliente, tipo de producto o servicio). Tambien se puede considerar generar estrategias por grupos (cada rango)

Inciso 6

Column

Boxplot de la variable ā€œYearly Amount Spentrā€ por categorĆ­a

Column

Interpretación del Boxplot de la variable ā€œYearly Amount Spentrā€

El grÔfico de boxplot nos muestra la distribución de los datos en cuartiles. En el eje X tenemos los rangos de tiempo promedio que los clientes pasaron en la tienda en línea y en el eje Y, el monto que gastaron anualmente en la tienda. En el grÔfico se observa una tendencia que indica que los clientes que permanecen mayor tiempo promedio en la tienda en línea durante sus sesiones tienden a gastar mÔs anualmente que aquellos que permanecen menor tiempo en promedio. Siendo quienes permanecen entre 34 y 36.2 minutos, el grupo con mayor gasto anual y quienes permanecen entre 29 y 23 minutos en la sesión, el grupo con el menor gasto. A medida que aumenta el tiempo promedio que los usuarios permanecen en línea, es decir, grupos [33-34] y [34 -36.2], la dispersión del gasto anual también lo hace. Lo que podría indicar que entre los clientes que pasaron mÔs tiempo en línea hay tanto grandes compradores como algunos con gasto moderado, mientras que en los grupos de usuarios que permanecen menos tiempo en la sesión, el gasto estÔ mÔs concentrado. Se observan también valores atípicos en todos los grupos, es decir clientes con un gasto significativamente distinto al grupo al que pertenecen. Se destaca el grupo de 34 a 36.2 minutos, en donde hay clientes que gastaron notablemente mÔs que el promedio. El tiempo promedio que pasan los usuarios durante la sesión parece correlacionarse positivamente con el gasto anual de los clientes, lo que sugiere que estrategias para aumentar el tiempo que los clientes pasan en la tienda, podría aumentar también los ingresos recibidos. Por otro lado, también seria conveniente analizar a los clientes que pasan menos tiempo en la tienda en línea y que gastan menos, implementando estrategias que mejoren su experiencia y los incentiven a comprar mÔs.

Inciso 7

Column

Matriz de las correlaciones

GrĆ”ficos bivariados con ā€œYearly Amount Spentā€

Column

Columna Interpretación

Inciso 8

Column

summary(modelo) - R2.train & R2.valid


Call:
lm(formula = YearlyAmountSpent ~ AvgSessionLength + TimeonApp + 
    TimeonWebsite + LengthofMembership, data = aux1, subset = train)

Residuals:
     Min       1Q   Median       3Q      Max 
-30.2617  -6.3368  -0.3456   6.8310  30.1189 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)        -1044.0993    24.9478 -41.851   <2e-16 ***
AvgSessionLength      25.5468     0.4951  51.595   <2e-16 ***
TimeonApp             38.9498     0.5073  76.775   <2e-16 ***
TimeonWebsite          0.3445     0.4871   0.707     0.48    
LengthofMembership    61.3558     0.5000 122.719   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.922 on 395 degrees of freedom
Multiple R-squared:  0.9839,    Adjusted R-squared:  0.9837 
F-statistic:  6034 on 4 and 395 DF,  p-value: < 2.2e-16
[1] 0.9838982
[1] 0.9851772

Column

Ajuste en ambas muestras

Inciso 8B

Column

summary(modelo) - R2.train & R2.valid


Call:
lm(formula = YearlyAmountSpent ~ AvgSessionLength + TimeonApp + 
    TimeonWebsite + LengthofMembership, data = aux1, subset = train)

Residuals:
     Min       1Q   Median       3Q      Max 
-30.2617  -6.3368  -0.3456   6.8310  30.1189 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)        -1044.0993    24.9478 -41.851   <2e-16 ***
AvgSessionLength      25.5468     0.4951  51.595   <2e-16 ***
TimeonApp             38.9498     0.5073  76.775   <2e-16 ***
TimeonWebsite          0.3445     0.4871   0.707     0.48    
LengthofMembership    61.3558     0.5000 122.719   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.922 on 395 degrees of freedom
Multiple R-squared:  0.9839,    Adjusted R-squared:  0.9837 
F-statistic:  6034 on 4 and 395 DF,  p-value: < 2.2e-16
[1] 0.9838982
[1] 0.9851772

Column

Interpretación de resultados